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基于 电子 商务 评论 的 商家 信誉 维度 构建 


王 宇 李 秀 秀 
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摘要 : 【 目的 ] 通过 对 电子 商务 评论 文本 的 分 析 和 处 理 ,， 获取 有 效 的 商家 信誉 信息 ， 从 客观 角度 建立 商家 信誉 维 
度 体 系 。[ 方法 】 基于 HNC 理论 的 同行 优先 原理 和 文本 挖掘 方法 提出 改进 的 评论 文本 主题 词 抽取 方法 和 主题 词 
案 类 算法 , 并 进行 类 簇 标 签 抽 取 及 各 类 簇 权重 计算 。[ 结果 】 生 成 商家 信誉 维度 体系 及 各 维度 权重 ， 以 京东 平台 
手机 评论 文本 为 实例 , 构建 商家 信誉 维度 体系 , 并 对 其 进行 评价 , 证 明 方法 的 可 行 性 与 有 效 性 。[ 局 限 ] 受 HNC 
词 库 不 全 的 影响 需 手 工 生成 一 部 分 字 词 符号 , 在 应 用 到 更 大 规模 的 评论 文本 处 理 时 可 能 会 存在 限制 。[ 结论 ] 利 
用 本 文 提出 的 方法 建立 的 商家 信誉 维度 体系 能 够 客观 地 反映 出 用 户 真 正 关 心 的 商品 指标 。 
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近年 来 , 电子 商务 以 及 社交 媒体 鞍 勃 发 展 。 最 新 
数据 显示 ,2016 第 三 季度 中 国电 子 商务 市 场 交 易 规模 
达到 5.2 万 亿 元 , 同比 增长 30.8%, 其 中 网 络 购物 市 场 
交易 规模 1.15 万 亿 元 ,同比 增长 23.6%D; 2016 年 社交 
媒体 用 户 达 到 23.1 亿 人 ,相当 于 全 球 人 口 的 31%, 新 
增 社交 媒体 用 户 2.19 亿 人 , 年 增幅 10% 中"。 

随 着 网 上 商家 数量 的 快速 增长 ,商品 种 类 、 数 量 
的 极 大 丰富 ,商家 信誉 状况 却 良 著 不 齐 , 并 有 大 量 假 
货 充斥 其 中 ,加 之 商品 评价 信息 多 以 非 结 构 化 的 形式 
存在 于 网 络 中 ,消费 者 很 难 仅 从 商家 对 商品 的 描述 中 
辨别 真 伪 ， 做 出 正确 购买 决策 。 因 此 如 何 对 评论 短文 


Word2Vec 对 酒店 评论 进行 特征 抽取 和 降 维 , 结合 情 
感 分 析 技 术 , 人 研究 影响 酒店 用 户 满 意 度 的 因素 。 

但 目前 商家 信誉 评价 研究 大 部 分 都 专注 于 数值 化 
的 研究 方式 , 却 忽 视 了 客户 的 定性 评论 对 卖 者 信誉 度 
的 影响 。 调 查 结果 表明 , 在 电子 商务 交易 决策 过 程 中 ， 
交易 双方 越 来 越 重 视 社会 网 络 中 其 他 参与 者 (如 朋友 、 
其 他 消费 者 、 意 见 领袖 、 第 三 方 平台 等 ) 的 评价 , 原因 
在 于 这 些 评价 能 为 商家 改善 服务 、 提 高 信誉 水 平 提供 
参考 , 为 消费 者 做 出 购买 决策 提供 依据 。 虽 然 赵 学 锋 
等 9 通过 文本 聚 类 对 在 线 零售 商 的 客户 评论 进行 维 
度 分 析 , 扩展 原 有 的 信誉 维度 。 但 时 至 今日 , 电子 商务 
迅速 发 展 , 尤其 在 与 社交 网 络 互相 融合 之 后 ,使 得 评 
论文 本 越 来 越 带 有 社会 化 的 特征 , 文本 量 巨大 ,语言 


本 进行 有 效 的 分 析 和 处 理 ,以 获取 有 效 的 商家 信誉 信 
息 ， 从 而 建立 商家 信誉 维度 体系 , 已 经 成 为 研究 的 热 
点 问题 。 和 鲁 文 中 基于 相关 理论 模型 从 4 个 维度 构建 了 
包含 17 个 量化 指标 的 电子 商务 在 线 信誉 的 影响 模型 。 
茹 永 梅 品 运 用 层次 分 析 法 和 模糊 综合 评价 法 对 020 电 
子 商 务 中 的 商家 信誉 进行 度量 ， 建 立 基于 模糊 理论 的 
O20 电子 商务 商家 信誉 评估 模型 。 吴 维 芳 等 外 利用 


灵活 随意 , 文本 长 短 不 一 , 且 包 含 较 多 无 关 信息 。 这 些 
寺 征 使 得 简单 的 聚 类 方法 在 面 对 如 此 大 规模 的 评论 文 
本 时 聚 类 的 效果 和 准确 度 都 将 大 大 降低 。 

针对 现 有 的 商家 信誉 评价 指标 体系 的 不 足 ， 本文 
从 用 户 评论 的 角度 , 基于 HNC 理论 已 ,利用 HNC 同行 
优先 原则 对 大 量 用 户 评论 文本 抽取 主题 词 , 将 主题 词 
映射 到 HNC 字 词 库 , 采用 基于 HNC 的 词语 相似 度 计算 
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改进 传统 的 CURE 算法 , 提出 一 种 新 的 针对 评论 文本 的 
主题 词 聚 类 方法 ; 在 此 基础 上 构建 商家 信誉 指标 体系 ， 
并 对 这 种 方法 构建 的 指标 体系 进行 检验 和 评价 。 


2 评论 文本 主题 词 抽取 


主题 词 即 能 够 表达 文本 主题 的 规范 化 词语 或 词 
组 。 传 统 的 主题 词 抽取 方法 主要 针对 长 文本 , 但 评论 
文本 长 度 短 , 不 存在 标题 . 首 末 句 等 词语 位 置信 息 ,并 
且 句 型 不 规范 , 往往 隐藏 主语 。 本 文 提 出 一 种 针对 评 
论文 本 的 主题 词 抽取 方法 。 
2.1 主题 词 扩展 

针对 评论 文本 的 特点 5 依据 词性 、 词 频率 和 词 共 
现 对 评论 中 的 高 频 主 题词 进行 初步 抽取 。 考 虑 主题 词 
的 广泛 性 以 及 同义词 合并 中 不 可 避免 的 不 完善 情况 ， 
抽取 主题 词 不 能 完全 排除 低频 词 , 需要 主题 词 间 的 词 


频 有 一 定 的 差异 "1。 因 此 , 对 于 已 经 初步 抽取 出 的 
高 频 主题 词 , 通过 依存 句法 提取 出 修饰 这 些 主 题词 的 
形容 词 , 并 按照 词 频 排序 ， 只 保留 高 频 形 容 词 ,再 针 
对 未 提取 出 高 频 主 题词 的 评论 文本 , 提取 该 形容 词 修 
饰 的 名 词 作为 主题 词 。 例 如 评论 文本 “鞋子 收 到 了 , 保 
暧 性 很 好 ,鞋底 很 厚 ， 超 出 预期 。” 名 词 集合 为 {鞋子 ， 
保暖 性 , 鞋底 }, “鞋子 "是 通用 词 将 被 删除 ， 而 “鞋底 ”、 
“保暖 性 ”无 法 达到 主题 词 初步 抽取 的 词 频 要 求 , 针对 
该 评论 文本 , 通过 初步 抽取 无 法 抽取 出 主题 词 ， 则 进 
入 扩展 主题 词 。 假 如 抽取 评论 文本 集合 的 高 频 形容 词 
集 为 {满意 , 快 , 好 , 合适 …},， 抽取 该 条 评论 文本 的 
形容 词 集 为 {好 , 厚 }。 可 发 现 “ 好 ”包含 在 高 频 形容 词 
集中 ,“ 厚 ”不 包含 在 内 。 根 据 依存 句法 发 现 “ 好 ”修饰 
的 名 词 为 “保暖 性 ” 则 “保暖 性 ?进入 主题 词 集合 ， 如 
图 1 所 示 。 
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图 1 例句 句法 分 析 


2.2” 词 频 调整 

经 过 主题 词 扩 展 ,可 认为 已 经 抽取 出 覆盖 面 足够 
广泛 的 主题 词 。 对 于 仍然 没有 抽取 出 主题 词 的 文本 ， 
有 两 种 可 能 : 一 是 评论 文本 确实 不 包含 主题 词 , 或 词 
汇 过 于 生僻 ,对 于 此 种 情况 不 作 处 理 ; 二 是 由 于 评论 
文本 句 型 不 规范 , 隐藏 了 主题 词 或 主语 ， 对 于 这 种 情 
况 利 用 HNC“ 同 行 优先 ”原理 进行 处 理 。“ 同 行 优先 ”是 
HNC 理论 处 理 语义 块 内 部 语义 距离 的 重要 原则 ,可 以 
简单 理解 为 能 够 相互 搭配 或 者 相互 修饰 的 词语 具有 相 
似 的 义 项 符号 50。 比如 , “无 私 uc3ae02”、“ 十 大 gub01”、 
“奉献 vc3ae02”、“ 目 标 grb01”， 可 以 看 出 , “无 私 " 和 
“奉献 ”以 及 “远大 ”和 “目标 ”这 两 对 常用 搭配 各 自 的 
HNC 符号 比较 接近 ， 与 不 搭配 的 词语 义 项 符号 则 相 
差 较 远 上 1。 

利用 这 一 特性 ,对 于 隐藏 主语 的 评论 文本 ,可 提 
取 该 评论 文本 的 形容 词 ， 比 较 该 形容 词 与 前 面 抽 取出 
的 主题 词 HNC 符号 相似 度 。 当 该 形容 词 与 某 一 主题 
词 的 HNC 义 项 相似 度 超过 设 定 阔 值 ,并 且 与 其 他 主 
题词 同 该 形容 词 的 相似 度 之 差 大 于 设 定 阔 值 ， 则 认 
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为 该 评论 文本 隐藏 的 主语 为 该 主题 词 ， 该 主题 词 词 
频 加 1。 

设 抽 取出 的 主题 词 集合 为 Wfwi, ws,…, ww}, 某 
条 未 抽取 出 主题 词 的 评论 文本 包含 形容 词 a, 则 对 于 
所 有 的 w 按照 文献 [14] 提 供 的 方法 计算 HNC 相似 度 
sim(a, wi),， 并 取 最 大 值 。 若 主题 词 Wp 与 形容 词 a 的 相 
似 度 最 大 , 即 sim(a, wy)=max{sim(a, w)}, HL sim(a, 
wp)> @ ，sim(a，wy)-sim(a，wi)>p， 则 主题 词 w 的 词 频 
{wp)= 帮 (wp)t+1。 例 如 ,评论 文本 “ 挺 满意 的 , 很 便宜 ， 
值得 购买 "经 过 主题 词 初步 抽取 以 及 主题 词 扩展 ,都 
不 能 抽取 出 主题 词 , 则 抽取 该 评论 文本 形容 词 集合 为 
{满意 , 便宜 }, 假设 抽取 出 的 主题 词 集合 为 {质量 , 服 
务 , 物流 , 款式 , 价格 …}, 分 别 计算 “满意 ”“ 便 宜 ” 同 
主题 词 集 合 中 各 词汇 的 HNC 相似 度 , 发 现 “ 满 意 ” 同 多 
个 主题 词 的 相似 度 在 0.4-0.5 之 间 , 彼此 差 值 很 小 ， 
此 不 能 确定 搭配 主题 词 ;“ 便 宜 ” 仅 与 主题 词 “价格 ”的 
相似 度 超过 0.9, 同 其 他 主题 词 的 相似 度 均 在 0.4 以 下 ， 
因此 认为 “便宜 ”隐藏 的 主题 词 为 “价格 ”“ 价 格 ” 的 词 
频 加 1。 


3 评论 文本 主题 词 聚 类 


3.1 HNC 符号 映射 及 主题 词 表示 

HNC 理论 以 语义 表达 为 基础 ， 是 一 套 完整 、 强 大 
的 语义 网 络 描述 体系 。 作 为 服务 于 汉语 理解 的 语言 知 
识 库 的 重要 组 成 部 分 , 词 知识 库 的 建设 也 一 直 是 HNC 
理论 研究 的 重要 工作 。 但 目前 包含 HNC 在 内 的 各 种 
词 库 如 WordNet、 同 义 词 词 林 等 , 都 存在 词 库 履 盖 不 
全 的 问题 。HNC 理论 将 概念 (词汇 ) 分 为 抽象 概念 和 具 
体 概念 ， 抽象 概念 用 五 元 组 和 语义 网 络 表 达 ， 具 体 概 
念 采用 向 抽象 概念 的 基 元 概念 和 基本 概念 挂靠 的 方式 
表达 。 评 论文 本 中 抽取 的 词汇 基本 属于 具体 概念 ， 对 
于 这 些 抽取 词汇 中 不 包含 在 现 有 HNC 词 库 中 的 部 分 ， 
采用 上 述 “ 类 别 符号 + 挂靠 ”的 方式 进行 补充 是 可 行 的 。 

为 了 满足 后 续 的 聚 类 要 求 , 设计 一 种 基于 HNC 
符号 的 主题 词 表 示 方 法 ， 即 四 元 组 表示 法 : {主题 词 ， 
词 频 , HNC 符号 , 来 源 }。 其 中 ， 主 题词 即 主题 词 本 身 ; 
词 频 是 主题 词 在 评论 文本 集中 出 现 的 总 次 数 ; HNC 符 
号 是 主题 词 映 射 到 HNC 字 词 库 的 HNC 义 项 符号 ; 来 
源 是 标识 哪些 评论 文本 包含 该 主题 词 或 隐 含 该 主题 词 
或 者 经 过 同义词 合并 的 近义词 。 

这 样 的 表示 方法 为 主题 词 引入 了 准确 的 语义 信 
息 ,， 后 续 聚 类 过 程 的 聚 类 对 象 就 不 再 是 简单 的 词 形 ， 
而 是 含有 语义 的 HNC 符号 , 使 得 聚 类 结果 更 加 精确 。 
另外 , 保留 主题 词 来 源 这 一 属性 , 可 以 在 主题 词 聚 类 
完成 后 , 将 主题 词 聚 类 簇 还 原 为 对 应 的 评论 文本 类 篮 ， 
便于 对 聚 类 簇 的 分 析 和 描述 。 
3.2 ”主题 词 聚 类 算法 

文本 聚 类 有 很 多 算法 ， 比 如 划分 法 、 层 次 法 、 密 
度 法 等 , 但 适 于 对 评论 短文 本 聚 类 的 算法 却 很 少 。 
CURE(Clustering Using REpresentatives) 算 法 05 采 用 多 
个 代表 点 表示 整个 类 得， 获得 的 类 质量 较 高 , 并 且 在 
处 理 大 数据 量 时 采用 随机 取样 、 分 区 的 方法 提高 其 效 
率 ， 比 较 适合 用 于 评论 文本 的 挖掘 。 但 当 簇 的 密度 、 
分 布 不 均匀 时 , CURE 算法 会 导致 选取 到 不 合理 的 代 
表 点 , 造成 不 合理 的 艇 合并。 考虑 到 评论 文本 主题 词 的 
特性 , 本 文 提 出 基于 HNC 符 号 的 改进 CURE 聚 类 算法 。 

(1) 代表 点 的 选取 算法 


代表 点 影响 因子 和 篮 中 心 点 的 定义 如 下 。 
OD 代表 点 影响 因子 
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设 数 据 集 狂 C={di,d3,…,d,} ,其 中 di 为 艇 中 的 数据 
点 , n 为 繁 C 中 数据 点 个 数 ， 禾 C 的 代表 点 集合 为 
S(O)={d ji,4dp2…dpm}，m 为 代表 点 个 数 ， 则 代表 点 d， 的 
/ lo 方 i . 
影响 因子 为 FIW(dw) = 车 ， 其 中 1c; | 为 次 C 中 与 代 
表 点 du 相似 度 最 大 的 数据 点 个 数 ，|c | 为 徐 C 中 的 主题 词 


总 数 ,所 为 代表 点 主题 词 d， 的 词 频 , N 为 类 徐 C 中 所 有 主题 


pm 


词 的 词 频 和 , 即 N=》/;。 
j=1 
四 竹中 心 点 
设 数 据 集 徐 C={di, dq,, …, di}， 其 中 契 为 徐 中 的 数据 点 ， 
nn 为 禾 C 中 数据 点 个 数 ， 禾 中心 点 di， 是 与 其 他 主题 词 相 
似 度 的 均值 最 大 的 点 ， 即 dean 满足 Sim(d ean» dy;) 三 
maxygec tg, (Dsim(d,d,)/n) 9 其 下 Gna GE {da} 9 
其 中 ， 簇 中心 点 中 代表 点 的 相似 度 计 算 ， 采 用 文 
献 [14] 提 出 的 基于 HNC 语义 的 相似 度 计算 方法 。 
代表 点 的 选取 算法 如 下 : 
输入 : 数据 集 徐 C={di,d,,…,d,}, 最 大 代表 点 个 数 m， 影响 
因子 FIW 闪 值 1 
输出 : 答 C 的 代表 点 集合 8 
Begin 
calculate oemn(C)W 计 算 答 中心 点 
initiate S.={dwean (C)Y/ 选 取 比 中 心 点 作为 第 一 个 代表 点 
for each d;in C- S. { 
for each dj;in S. { 
calculate Sima, 
Similarity.add(simaa) 
} 
// 将 Simag, 保存 在 临时 数组 similarity 中 
} 
calculate max(similarity)// 对 于 C-S。 中 每 一 个 数据 点 ,计算 
其 与 已 选 代表 点 相似 度 的 最 大 值 
for each Simad, in similarity{ 
iflsimag, == max(similarity)) 
max-similarity.add(simaa) 


和 
了 


calculate min(max-similarity)// 选 取 与 已 选 代表 点 最 大 相似 
度 值 最 小 的 点 
for each Simag, in max-similarity 
if(simay, == min(max-similarity) and fiw(d;)>n and 
length(S.)<m) 
Sce= SeU {qd;} 
End 


其 中 , 代表 点 的 数量 m 根据 原始 数据 集 的 数据 量 


二 男 > | 
决定 ,在 实际 实验 中 影响 因子 FIW 阐 值 7 为 有 
m 
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(2) 基于 HNC 符号 的 改进 CURE 聚 类 算法 

代表 点 选取 规则 改进 后 , 在 最 终 聚 类 复 的 数量 上 ， 
CURE 算法 需要 提前 设 定 最 终 聚 类 簇 的 个 数 。 改 进 算 
法 不 设置 最 终 类 簇 的 数目 ,而 是 通过 控制 徐 合 并 时 的 
相似 度 阔 值 w 来 调节 类 簇 的 合并 ,具体 步骤 如 下 : 

GD 所 有 代表 主题 词 的 HNC 符号 fh, 及 ,…, 有 } ， 对 于 每 
一 个 如 创建 一 个 繁 C;,， 即 C={Ci,Cy…,Ci}，C;={h}， 
C' 的 代表 点 集合 S(C)= {hh}。 

@O 如 果 答 集 C 的 数目 |C|<2, 执行 终止 。 

图 找 出 徐 集 C 中 距离 最 近 的 两 个 徐 C, 和 C,， 如 果 
dist(C,,C,) >w， 执行 中 止 。 

图 合并 答 C 、C,，C ,=C,UC,， 计算 狭 C,, 的 中 心 
点 ， 按 上 一 节 方 法 计算 徐 Co, 的 代表 点 集合 SC ，) 。 

@@ 更 新 续集 CC=C-C,-C,+C，， 执 行 步骤 四 。 


4 信誉 维度 体系 构建 


评论 主题 词 经 过 聚 类 算法 处 理 后 得 到 的 聚 类 簇 集 
隐 含 着 消费 者 关注 的 关于 商家 的 信誉 维度 信息 ,对 这 
些 秘 集 进行 标签 抽取 及 命名 即 得 到 商家 的 信誉 维度 。 
另外 ,作为 一 个 完整 的 维度 体系 ,还 需要 为 每 个 维度 
指标 确定 权重 。 

类 簇 集 标签 的 抽取 即 从 类 簇 中 选择 若干 个 具有 
代表 性 的 词语 表达 整个 类 簇 的 主题 ,目前 大 多 数 类 簇 标 
签 抽取 方法 都 是 简单 地 选取 词 频 最 高 或 者 是 TF-IDF 值 
最 大 的 若干 个 词语 作为 类 簇 标签 “但 构成 类 簇 
标签 的 词语 之 间 往 往 存在 一 定 的 关联 性 ， 而 在 上 述 
关于 类 簇 标签 抽取 的 研究 中 ,并 没有 考虑 词语 之 间 
的 关联 性 和 逻辑 关系 。HNC 理论 在 构建 词语 的 HNC 
符号 时 , 通常 是 基于 局 部 联想 脉络 , 将 概念 之 间 存 在 
关联 的 词语 映射 到 相同 或 者 相近 的 概念 基 元 符号 上 ， 
计算 机 通过 解释 相应 的 符号 就 可 以 把 握 概念 之 间 的 
关联 性 。 

基于 HNC 的 “同行 优先 ”原则 考虑 词语 之 间 的 关 
联 概念 节点 ( 即 概念 基 元 ) 是 否 相 同 , 将 类 簇 中 的 词语 
划分 为 不 同 的 词语 集合 , 计算 所 有 词语 集合 的 权重 ， 
将 权重 最 大 的 词语 集合 作为 每 个 类 艇 的 标签 。 同 时 ， 
每 个 类 簇 标签 所 对 应 的 词语 集合 的 权重 也 就 是 相应 的 
信誉 维度 权重 。 

某 一 个 维度 的 权重 体现 了 该 维度 在 整个 评价 体系 
中 的 相对 重要 程度 。 由 主题 词 篮 集 形成 的 指标 体系 ， 
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考虑 每 个 聚 类 簇 中 主题 词 的 数量 5、 词语 的 词 频 7F 以 
及 词语 与 类 簇 中 其 他 词语 的 语义 相似 度 Sim(w,w;) 
总 和 的 均值 等 三 个 因素 综合 评价 维度 的 权重 ,其 计算 


如 公式 (1) 所 示 。 
Woion = 0 XS +0> XT + O03 xX Sim(w;, w) (1) 
Clength 
> Sim(w;, w;) 
其 中 ， Sim(w;, wj) = Ty ， Clength 表 
Clength -1 


示 每 个 类 簇 中 包含 的 词语 个 数 。w + a, +3=1, 根据 
实际 经 验 和 多 次 实验 调整 , 这 里 mw,w?,a3 依次 取 0.5， 
0.3, 0.2 。 

如 果 某 个 维度 中 包含 的 主题 词 数 量 越 多 ,包含 的 
主题 词 频 次 越 高 , 则 代表 它 在 更 多 的 评论 文本 中 被 提 
及 , 被 更 多 的 消费 者 重视 ,权重 应 该 越 高 ,也 就 是 说 
某 一 维度 的 重要 性 与 其 包含 的 主题 词 总 量 成 正比 。 类 
篮 标 签 抽取 算法 实现 如 下 : 

输入 : 所 有 的 类 和 从 集 合 。 

输出 : 类 繁 标签 集合 。 

人 中 对 类 徐 中 的 所 有 词语 进行 权重 计算 ， 对 每 个 类 繁 任 
意 选择 一 个 词语 Wi 作为 初始 的 词语 集合 。 

加 对 每 个 类 竹中 剩余 的 词语 逐个 进行 判断 ， 首 先 判 断 
是 否 和 词语 Wi 拥有 相同 的 关联 概念 节点 ， 如 果 两 个 词语 存 
在 相同 的 关联 概念 节点 ， 则 将 这 个 词语 加 入 该 词语 集合 中 ; 
如 果 不 存在 相同 的 关联 概念 节点 ， 则 依据 HNC 给 出 的 概念 
关联 式 判 断 该 词语 与 词语 Wi 是 否 丰 在 菜 种 逻辑 关系 ， 如 果 
两 个 词语 存在 某 种 逻辑 关系 ， 则 将 这 个 词语 加 入 该 词语 集 
合 中 。 如 果 上 述 两 种 情况 都 不 满足 ， 则 将 该 词语 加 入 新 的 词 
语 集会 。 

图 对 每 个 类 竹中 剩余 的 词语 重复 执行 步骤 @， 直 至 所 
有 词语 都 加 入 到 相应 的 词语 集合 中 。 

@ 对 所 有 生成 的 词语 集合 进行 权重 计算 , 选取 权重 最 
大 的 词语 集合 作为 每 个 类 禾 的 标签 。 


5 实验 验证 


5.1 实验 设置 

测试 数据 随机 抓 取 于 京东 网 站 , 共 1 850 条 手机 
评论 ， 筛 选 过 滤 字 数 过 少 以 及 无 效 的 评论 文本 , 剩余 
1 000 条 用 于 实验 , 由 人 工 审 阅 提取 主题 词 ， 对 于 省 略 
主题 词 的 文本 ， 人 为 分 配 主题 词 并 对 提取 出 的 主题 词 
进行 分 类 处 理 。 其 中 主题 词 数量 由 于 涉及 到 词 频 调 整 ， 
因此 从 不 同 评论 文本 中 抽取 出 的 相同 主题 词 ， 主 题词 
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数量 做 累加 。 

实验 主要 分 为 两 个 部 分 , 分 别 测试 主题 词 抽取 方 
法 以 及 主题 词 聚 类 方法 的 效果 。 评 价 方 法 按照 主题 词 
抽取 结果 以 及 聚 类 结果 与 人 工 判断 结果 越 吻合 越 好 的 
原则 ,采用 准确 率 、 召 回 率 对 主题 词 抽取 结果 和 聚 类 
结果 进行 评估 , 定义 如 下 。 

(1) 主题 词 抽 取 : 设 人 工 审 阅 评论 文本 得 到 的 主 
题词 数量 为 n, 主题 词 抽取 方法 得 到 的 主题 词 数 量 为 
m, m 个 主题 词 中 与 人 工 审阅 结果 吻合 的 主题 个 数 为 e， 
则 主题 词 抽取 的 准确 率 P、 召 回 率 R 的 计算 分 别 如 公 
式 (2) 和 公式 (3) 所 示 。 


A= 2) 


R= (3) 


(2) 主题 词 聚 类 : 设 1(Q) 是 类 艇 ci 的 簇 标签 , 1(d)) 
是 第 j 个 主题 词 人 工 标记 的 类 别 , nj; 是 自动 聚 类 簇 c 包 
含 的 主题 词 数目 , m; 是 人 工分 类 4 包含 的 主题 词 数 目 ， 
是 类 簇 数 日 。 主 题词 素 类 的 准确 率 已 、 召 回 率 尺 的 
计算 如 公式 (4) 和 公式 (5) 所 示 。 


S| si 


P=7 YD od) (4) 
i=1 j=1 及 
R=-19Y 1 ec) 1d)) G) 
天 m 人 这 
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5.2 ”主题 词 抽取 效果 分 析 

实验 中 , 分 别 使 用 传统 基于 词性 的 主题 词 抽取 方 
法 (初步 抽取 )、 初 步 抽取 + 主题 词 扩展 、 初步 抽取 + 主 
题词 扩展 + 基于 HNC 的 词 频 调整 三 种 方法 ,进行 主题 
词 抽 取 , 检验 三 种 方法 的 准确 率 、 召 回 率 , 并 对 比分 
析 。 实 验 结果 如 图 2 和 图 3 所 示 。 

从 上 述 主题 词 抽 取 的 实验 效果 看 ， 基 于 句法 分 析 
的 主题 词 扩 展 以 及 基于 HNC 的 词 频 调整 ， 相对 于 初 
步 抽取 的 结果 ,在 准确 率 、 召 回 率 上 都 具有 明显 的 提 
升 。 另 外 , 三 种 抽取 方法 初期 都 显现 出 准确 率 与 召回 
率 随 文 本 数量 的 增加 而 增加 的 特性 ， 随 后 在 一 定 范 围 
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图 3 三 种 主题 词 抽 取 方 法 召回 率 对 比 


行 的 , 文本 量 越 多 ,抽取 出 的 主题 词 越 丰富 ， 比 对 的 
效果 也 就 越 好 。 当 然 在 不 累计 词 频 的 情况 下 , 后 两 种 
方法 的 效果 是 一 致 的 。 
5.3” 聚 类 效果 分 析 
实验 中 , 分 别 使 用 传统 的 CURE 方法 +Jaccard 相 
似 度 计 算 方 法 、 改 进 的 CURE 方法 + 基于 知 网 的 相似 
度 计算 方法 .改进 的 CURE 方法 + 基于 HNC 的 相似 度 
计算 方法 三 种 方法 进行 聚 类 ,验证 三 种 方法 的 准确 率 、 
召回 率 , 并 对 比分 析 。 实 验 结果 如 图 4 和 图 5 所 示 。 
从 聚 类 实验 效果 看 , 本文 提 出 的 聚 类 算法 在 聚 


内 波动 , 加 入 基于 HNC 的 词 频 整 调 的 方法 , 表现 出 的 
增长 性 更 加 稳定 ,这 主要 是 由 于 HNC 对 于 隐藏 主语 
的 提取 是 在 与 前 两 步 抽取 出 的 主题 词 比 对 的 基础 上 进 


类 的 准确 率 和 召回 率 上 相对 于 传统 CURE 算法 以 及 
基于 知 网 的 算法 都 有 提升 , 体现 了 算法 改进 的 合理 
性 以 及 HNC 在 语义 相似 度 计算 上 的 优势 。 另 外 , 在 
时 间 复 杂 度 上 , 改进 后 的 CURE 算 法 与 传统 CURE 算 
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法 一 致 , 仍 是 O(n2), 聚 类 准确 率 的 提升 并 没有 以 时 间 
为 代价 , 对 孤立 点 的 处 理 也 保持 了 传统 CURE 算法 的 
优势 。 因 此 该 方法 比较 适用 于 大 规模 的 评论 文本 主题 
词 聚 类 。 
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图 4 三 种 聚 类 方法 准确 率 对 比 
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图 5 三 种 聚 类 方法 召回 率 对 比 


6 实例 分 析 


为 了 在 实践 中 应 用 本 文 提出 的 商家 信誉 维度 体系 
构建 方法 ， 以 京东 为 研究 平台 , 利用 其 提供 的 开放 
API 抓 取 手 机 产品 的 评论 语 料 7 856 条 ,经 过 无 效 评论 
过 波 筛 选 等 处 理 , 剩余 有 效 评论 语 料 5 394 条 。 手 机 产 
品评 论 均 来 自 京东 自 营 , 涉及 iPhone6、 华 为 P7、 小 米 2 
等 15 种 手机 型 号 , 评论 时 间 跨 度 为 2014 年 5 月 -2015 
年 3 月 ,检索 词 为 手机”， 筛 选 字段 为 “京东 自 营 ”， 部 
分 评论 数据 如 图 6 所 示 。 
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为 py7 ”2015-03-30 115825 ”首先 我 是 茎 著 外 观 来 的 ， 其 次 分 拓 率 ， 
区 2015-03-27 192742 征 作 各 We 天 
全 2015-03-25 150231 i 能 人 在 
PT 2015-03-24 155200 ”性 骨 趟 错 三 很 好 ， 
和约 P7 2015-03-19 205847 1 引入 渤 宙 5 内 
华为 p7 2015-03-17 202918 大 、 吕 之 、 
3 2015-03-16 093917 i 让 - 为 就 i 之 前 用 过 的 所 
hp7 2015-03-12 211320 : F 断 的 
各 2018-03-11 T01432 站 者 让 人 条 a" 去 部 假 
pT 2015-03-11 163733 5.0 De 言 
华为 7 2015-03-10 095213 ”京东 人 人 sl 果 过 ， 取 到 
华为 p7 2015-03-07 173 物流 挺 快 ， 下 单 第 二 大 九 点 过 跑 收 天 避风 
华为 7 2015-03-07 130123 。 商家 太 不 地 适 了 ， 上 上 午 买 的 于 机 。 下 漫 想 
为 p7 2015-03-04 000939 ”质量 很 棒 ， 昭 鼎 不 销 ， 耻 观 和 和 持 | 
华为 b7 2015-03-02 1624 说 并 请 真 不 六 有 寺 ， 且 在 手 里 跳 负 和 有 
华为 p7 2015-02-27 121 疫 坊 异 , 关于 感 砚 很 好 看 ， 手 机 轻 苞 、 江 
华 内 PT 2015-02-24 200513 高 渤 大 气 上 笠 次 ,条 撤 应 
:为 p7 2015-02-20 100102 ”手感 六 差 不 多 ， 这 种 硬 邦 1 
华为 p7 2015-02-17 043546 。 质量 也 太夫 动 了 | 最 令 人 1 贷 的 时 ， 中东 的 手机 | 
华为 p7 2015-02-17 204137 。 去 年 P6 预约 了 一 他 粉色 的 ， 转 华为 的 
华 办 p7 2015-02-16 133517 。 目 条 赤 的 。 基 了 几 夫 后 束 降 价 100， ! 
Fe ee pt 
Np7 2015-02-12 215744 满心 相 的 征 这 社 的 商品 向 们 
华为 p7 2015-02-09 000639 于 | 官网 查询 过 。 号 也 共和， a 


图 6 手机 评论 数据 (部 分 ) 

(1) 主题 词 抽取 。 采 用 中 国 科学 院 计算 技术 研究 
所 研发 的 ICTCLAS2015 分 词 系统 对 评论 文本 进行 分 
词 并 标注 词性 , 使 用 第 2 节 提 出 的 主题 词 抽取 方法 ， 
共 抽 取 主 题词 776 个 (累计 词 频 6 187), 将 抽取 出 的 主 
题词 与 HNC 字 词 库 映 射 , 以 { 主 题词 , 词 频 HNC 符 
号 , 来 源 } 四 元 组 形式 存储 。 

(2) 主题 词 聚 类 。 采 用 主题 词 聚 类 算法 对 评论 文 
本 中 抽取 出 的 主题 词 进行 聚 类 ,最 终 得 到 9 个 大 类 簇 ， 
35 个 小 类 簇 ( 词 频 累 计数 量 小 于 20), 男 有 194 个 词类 
别 不 确定 或 属于 孤立 点 。 

(3) 商家 信誉 维度 体系 构建 。 依 据 第 4 节 方 法 为 
聚 类 得 到 的 大 类 簇 进行 标签 抽取 , 确定 前 6 个 类 徐 描 
述 作 为 评价 指标 , 以 此 建立 信誉 指标 体系 , 并 计算 6 
个 维度 的 权重 ,其 结果 如 表 1 所 示 。 


表 1 ， 聚 类 结果 


序号 维度 名 称 簇 标 和 权重 
1 ”性 能 质量 屏幕 -性 能 -系统 -电池 1 743 0.36 
2 ”客服 服务 ”服务 -客服 -态度 1 300 0.27 
3 ”物流 速度 ”快递 -物流 578 0.12 
4 ”诚实 守信 正品 -正版 -原装 482 0.10 
5 ”外 形 设计 外 形 -外 观 424 0.09 
6 产品 价格 ” 价 -价格 289 0.06 


建立 的 商家 信誉 维度 体系 如 图 7 所 示 。 从 图 7 得 
到 的 信誉 维度 体系 可 以 发 现 , 1 性 能 质量 、5 外 形 设计 
和 6 产品 价格 是 关于 产品 自身 的 , 2 客服 服务 、3 物流 
速度 和 4 诚实 守信 是 关于 商家 服务 的 。 文 献 [6] 也 曾 通 
过 评论 文本 聚 类 研究 数码 产品 信誉 维度 体系 的 建立 ， 
并 将 维度 设置 为 8 个 ,如 图 8 所 示 。 

对 比 图 7 和 图 8 可 以 发 现 , 图 7 中 多 了 “外 形 设 
计 ”， 而 少 了 “交易 安全 性 ”、“ 售 后 服务 ”以 及 “品牌 声 
誉 "三 项 。 分 析 原 因 笔 者 认为 ， 关 于 “交易 安全 性 ”， 随 
着 网 购 交 易 形式 的 进化 , 尤其 是 第 三 方 担保 出 现 之 后 ， 
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图 8 文献 [6] 构 建 的 手机 商家 信誉 维度 


对 于 网 购 交 易 安全 性 的 担忧 已 经 越 来 越 少 , 评论 中 已 
很 少 涉及 到 对 于 交易 安全 的 担忧 ; 关于 “售后 服务 ”， 


别 于 传统 长 文本 的 特点 , 本文 主要 在 传统 的 基于 词性 
词 频 的 抽取 方法 基础 上 , 对 主题 词 进行 扩展 和 词 频 调 


目前 在 大 多 数 网 购 平 台 , 手机 这 类 由 实体 厂家 生产 的 
产品 售后 服务 均 由 生产 厂家 提供 , 第 三 方 网 站 作为 中 
间 媒 介 或 担保 的 角色 ,因此 该 项 在 客户 评论 中 也 未 体 
现 ; 关于 “品牌 声誉 ”文献 [0] 选 取 的 评论 文本 来 自 于 
“中 关 村 在 线 ” 网 站 , 该 网 站 相对 于 京东 这 种 商务 网 站 
用 户 人 群 更 为 专业 , 评论 更 为 深入 , 而且 评论 文本 不 
仅 包括 手机 , 还 包括 电脑 等 其 他 数码 产品 , 这 些 可 能 
是 其 品牌 声誉 的 来 源 ， 而 从 本 文 抽取 的 评论 中 无 法 体 
现 出 这 一 点 ; 对 于 本 文 结果 中 多 出 的 “外 形 设计 " 一 项 ， 
说 明 随 着 手机 出 现时 间 的 延续 ,各 品牌 在 硬件 性 能 
面 逐 渐 趋 同 , 用 户 消费 能 力 不 断 提升 , 消费 者 在 购买 
时 不 仅 考量 硬件 方面 , 也 正在 越 来 越 多 关注 外 形 设 计 
等 软 实力 方面 。 


7 结 语 


在 电子 商务 不 断 快速 发 展 的 背景 下 , 商家 数量 的 
快速 增长 与 商家 水 平 的 参差 不 齐 , 使 得 商家 信誉 评价 
问题 越发 紧迫 与 重要 。 用 户 评论 文本 是 隐藏 商家 信誉 
信息 的 宝藏 ， 随 着 Web2.0 不 断 成 熟 , 用 户 生 成 内 容 
(UGC) 呈 现 爆 发 式 增 长 , 热门 商品 下 的 评价 数量 成 干 
上 万 , 大 量 的 评论 文本 在 给 用 户 带 来 重要 信息 的 同时 ， 
也 给 用 户 的 阅读 浏览 带 来 了 很 大 的 负担 , 使 得 用 户 无 
法 快速 获取 有 用 信息 。 这 也 显示 出 评论 文本 挖掘 工作 
的 重要 性 和 现实 价值 。 

针对 商家 信誉 评价 的 实际 需要 ,以 及 评论 文本 区 


整 ， 以 发 现 隐藏 的 主题 词 信息 ; 将 HNC 语义 信息 引入 
到 改进 的 CURE 聚 类 算法 , 将 待人 类 的 主题 词 映射 到 
HNC 字 词 库 , 采用 基于 HNC 符号 的 词语 相似 度 计算 ， 
提出 改进 的 CURE 聚 类 算法 ; 依据 聚 类 簇 中 主题 词 的 
HNC 符号 提出 类 簇 标签 抽取 方法 ,建立 商家 信誉 维 
度 , 并 计算 出 每 个 维度 的 权重 ; 进行 算法 的 实验 验证 
和 实例 分 析 。 
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上 Evaluating Business Reputation with E-Commerce Comments 


Wang Yu LiXiuxiu 
(Faculty of Management and Economics, Dalian University of Technology, Dalian 116024, China) 


Abstract: [Objective] This paper proposes a new method to evaluate business reputation based on e-commerce 
comments. [Methods] First, we modified the key word extraction and clustering algorithm based on the HNC theory 
and text mining methods. Then, we extracted the cluster labels and calculated the weight of each cluster of the collected 
comments. [Results] We established a business reputation dimension system, with cellphone users’ reviews posted on 
the Jingdong Online Shopping Platform. [Limitations] Some of the word symbols were generated manually due to the 
incomplete HNC thesaurus, which posed negative effects to larger-scale comments analysis. [Conclusions] The 
business reputation evaluation system can identify the commodity features that users really care about. 


Keywords: Comment Texts Topic Words Clustering Reputation Dimension E-Commerce 


Clarivate Analytics 与 Impactstory 合作 支持 科研 人 员 将 更 便捷 使 用 开放 获取 内 容 


Clarivate Analytics 于 近日 宣布 与 Impactstory 开展 全 新 的 战略 合作 伙伴 关系 , 这 将 为 研究 人 员 消 除 一 道 关 键 的 障碍 ， 即 : 
高 质量 的 、 受 信任 的 、 经 过 同行 评议 的 内 容 很 少 开放 获取 。 根 据 双 方 合作 伙伴 关系 , Clarivate Analytics 正在 向 Impactstory 提 
供 一 项 资助 以 建立 oaDOI 服务 ， 从 而 使 开放 获取 内 容 更 容易 被 发 现 , 研究 工作 从 发 现 到 发 布 变 得 更 有 效率 。 

科学 出 版 是 十 分 复杂 的 。 在线 搜 索 学 术 文章 的 研究 人 员 很 难 获得 可 靠 的 有 助 于 他 们 研究 的 搜索 结果 , 这 通常 是 因为 搜索 
结果 中 省 略 了 需要 付费 订阅 的 期 刊 文章 , 返回 的 是 未 经 同行 评议 的 版 本 或 不 违反 版 权 法 的 版 本 。Clarivate Analytics 和 
Impactstory 之 间 的 合作 关系 将 通过 一 种 能 在 广泛 的 科学 出 版 生态 系统 中 持续 发 展 的 方法 ,为 研究 人 员 和 各 种 机 构 提供 对 可 
信和 研究 成 果 的 开放 获取 。 

oaDOI 服务 来 自 非 营利 性 组 织 Impactstory。Impactstory 创建 了 一 套 在 线 工具 , 使 得 科学 变 得 更 加 开放 和 可 重用 。 目 前 ， 
oaDOI 索引 了 9 000 万 篇 文章 ,并 通过 一 个 免费 ,快速 .开放 的 API 提 供 开 放 获 取 的 全 文 版 本 -Impactstory 还 构建 了 Unpaywall, 
这 是 一 种 免费 的 浏览 器 扩展 , 每 当 研 究 人 员 遇 到 付费 文章 时 则 使 用 oaDOI 来 查找 全 文 。 

Clarivate 正在 开发 和 提供 创新 的 分 析 和 工作 流程 解决 方案 从 而 提高 整个 研究 生命 周期 的 效率 : 从 形成 想法 到 实验 验 
证 ,到 同行 评审 、 出 版 、 传 播 和 评估 。 与 Inpactstory 的 合作 将 研究 人 员 连 接 到 来 自 Web of Science 的 大 约 1 800 万 新 的 开放 
获取 文章 ， 从 而 加 快 Clarivate 客户 的 创新 发 现 阶段 。 此 次 合作 尤其 对 于 中 小 型 机 构 将 会 特别 有 价值 。 

(编译 自 : http:/news.clarivate.com/2017-06-23-Clarivate-Analytics-announces-landmark-partnership-with-Impactstory-to-make- 


open-access-content-easier-for-researchers-to-use?asPDF=1) 
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